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摘 要 : 日 益 频繁 的 非法 交易 行为 妨害 以 太 坊 安全 交易 ， 针 对 电子 货币 的 匿名 性 使 得 非法 交易 行为 难于 跟踪 分 析 问 
题 。 以 以 太 坊 平 台 交 易 数 据 作 为 数据 源 ， 以 被 标记 得 非法 账户 和 未 标记 的 正常 账户 数据 集 作 为 训练 集 ， 利 用 交易 数 
据 的 特征 属性 为 构造 基础 , 通过 CatBoost 算法 对 其 中 包含 多 种 类 型 的 非法 账户 进行 整体 预测 。 其 过 程 通过 T-SNE 算 
法 实现 交易 特征 的 降 维 可 视 化 , 采用 多 信和 交叉 验证 ， 引 入 SHAP Value 因子 判断 特征 影响 的 正 负 属性 ， 所 建立 模型 的 
预测 效果 准确 率 达 到 了 94.29%， 感 受 者 曲线 下 面积 (AUC) 数 值 的 评估 度量 达到 了 0.9846。 建 议 的 方案 较为 准确 的 预 
测 以 太 坊 交易 平台 上 存在 的 非法 行为 ， 有 效 改善 基于 区 块 链 的 交易 环境 。 
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Abstract: The increasingly frequent illegal transactions hinder the secure transactions of Ethereum, and the anonymity of 

electronic currency makes it difficult to track and analyze illegal transactions. This paper used the transaction data of the 

Ethereum platform as the data source, the marked illegal account and unmarked normal account data set as the training set, 

and the characteristic attributes of the transaction data as the construction basis. Account for the overall forecast. The process 

uses the T-SNE algorithm to realize the dimensionality reduction and visualization of transaction features, adopts multiple 

cross-validation, and introduces the SHAP Value factor to judge the positive and negative attributes of the feature. The 

prediction effect accuracy rate of the established model reaches 94.29%. The evaluation metric for the area (AUC) value 

reached 0.9846. The proposed scheme can more accurately predict the illegal behavior on the Ethereum trading platform, and 

will effectively improve the blockchain-based trading environment. 

Key words: blockchain; machine learning; ethereum:; illegal account; transaction features 
蒜 ”: 浊 | 短 则 使 用 元 启 oh 适 的 深度 学 习 超 
参数 ， 以 便 进一步 探索 区 块 链 之 间 的 通信 问题 ， 但 其 在 参数 
CS 2008 年 区 块 链 技术 被 中 本 聪 由 提出 ， 随 后 以 区 块 链 为 基 ”的 额外 通信 成 本 和 等 待 同步 等 挑战 中 ， 仍 然 存 在 不 足 ; pb) 基 
二 ” 础 的 电子 虚拟 货币 B31 如 比特 币 (Bitcoimn)9、 以 太 于 复杂 网 络 和 交易 逻辑 结构 的 非法 交易 行为 分 析 ， 如 Chen， 
(Ethereum)t% 1 瑞 波 币 (Ripple) 等 被 应 用 于 电子 交易 中 。 然 。 Weilin7 对 以 太 坊 中 存在 的 智能 庞 氏 骗局 合约 进行 分 析 , 以 寻 
而 区 块 链 技 术 的 匿名 性 使 得 非法 交易 难于 跟踪 和 分 析 ， 这 也 ” 找 健康 的 区 块 链 交 易 环境 ， 其 在 数量 、 数 据 和 研究 的 非法 账 
进一步 吸引 了 犯罪 分 子 ， 引 发 了 更 多 的 非法 交易 ， 如 上 暗 网 交 。” 户 类 型 上 还 存在 不 充分 的 问题 。Dan Lin, Jiajing Wu 等 人 则 
易 50、 违 禁 物 品 交易 0 、 金 融 诈 骗 03 等 等 ， 全 网 首 个 利用 区 ”是 通过 复杂 网 络 的 方法 进行 建 模 和 理解 以 太 坊 中 发 生 的 交易 
块 链 智能 合约 技术 0 实施 网 络 犯罪 “BigGame” 和 ”MDF 项 信息， 以 挖掘 出 潜在 的 价值 交易 分 析 ， 但 其 所 用 方法 不 是 整 
目 ”， 涉案 数字 货币 130 余 万 个 、 市 值 约 2600 余万元 。 基 于 ” 体 的 归纳 方法 ， 无 法 添加 最 新 的 节点 表示 ; c) 基 于 特征 值 分 
区 块 链 技术 犯罪 成 为 一 种 新 型 高 科技 犯罪 ， 严 重 妨 害 了 电子 。 析 的 ， 如 早期 通过 对 比特 币 钱包 [9 进行 分 析 ， 解 析 比 特 币 用 
虚拟 货币 交易 的 安全 性 和 稳定 性 。 于 大 规模 犯罪 所 面临 的 挑战 以 及 对 比特 币 环 境 P?" 沁 中 存在 的 
基于 区 块 链 的 非法 交易 分 析 是 一 个 挑战 性 问题 。 目 前 ， 欺诈 活动 ， 但 在 特征 提取 以 及 监督 方法 上 存在 不 足 问 题 。 
非法 交易 行为 的 检测 仍然 以 链 上 数据 的 分 析 为 主要 方法 。 根 ” Bartoletti 等 人 [3 更 细 入 的 对 以 太 坊 中 存在 的 大 量 庞 氏 骗局 
据 研究 方法 和 研究 目标 分 为 三 类 : a) 基 于 机 器 学 习 的 数据 分 。 进行 了 全 面 的 分 析 调 查 ， 以 总 结 其 各 类 观点 的 影响 ， 但 其 在 
析 方 式 , Fan 等 人 0 提出 了 一 种 许可 区 块 链 的 隐私 保护 DML ” 应 用 层面 还 缺乏 不 足 ， 以 及 对 于 非法 账户 的 类 型 仍 存 在 更 广 
模型 ， 以 解决 其 安全 性 能 问题 ， 但 在 部 署 和 实施 上 仍然 存在 ，” 泛 的 探究 问题 。 总 结 以 上 这 些 方法 ， 即 准确 度 距 离 实际 仍 依 
不 足 。 到 后 来 ， 比 特 币 和 以 太 坊 中 都 出 现 了 一 种 典型 欺诈 活 ”上 旧 存 在 差距 ， 或 者 方法 在 性 能 上 仍然 存在 优化 空间 ， 以 及 在 
动 -智能 庞 氏 骗局 05 以 至 于 通过 采用 不 同 机 器 学 习 算法 对 其 ”非法 账户 预测 上 只 着 重 关 注 于 某 一 种 类 型 ， 例 如 庞 氏 骗局 
进行 深入 研究 以 达到 预测 非法 账户 的 目的 ， 然 而 其 在 精度 以 。 户 约 ， 钩 鱼 节点 睛 29， 非法 洗钱 P729 等 ， 因 此 在 对 区 块 链 上 
及 探究 的 问题 上 依然 存在 不 充分 的 问题 。CHUN WEIN9 等 人 ”存在 非法 账户 行为 的 探究 仍然 存在 不 足 。 
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针对 以 上 存在 的 方法 、 性 能 及 预测 类 型 不 足 等 问题 ， 本 
文 在 原 有 交易 特征 基础 上 进行 创新 构造 ， 之 后 采用 机 器 学 习 
中 33 的 K-Means 聚 类 算法 先 对 数据 集中 属性 特征 进行 聚 类 
分 析 ， 再 使 用 CatBoostG533 进 行 非法 账户 的 预测 。 根 据 划分 
的 特征 属性 爬 取 全 新 的 交易 动态 数据 ， 其 数据 中 的 非法 账户 
包含 多 种 类 型 ， 并 旦 无 规则 排列 整理 ,利用 工 SNE 算法 可 视 
化 出 数据 集 在 属性 特征 中 正常 与 非法 账户 的 分 布 状况 ， 构 建 
后 的 模型 在 不 同 参数 环境 下 ,根据 准确 率 (Accuracy)， 感 受 者 
线 下 面积 (Receiver Operating Characteristic Curve，AUC) 数 
值 这 两 方面 得 出 最 优 预测 效率 的 模型 结构 ， 通 过 引入 SHAP 
Value 变量 测 出 属性 特征 影响 模型 构建 的 正 负 性 ， 并 且 本 文 
将 与 其 他 机 器 学 习 算 法 进行 对 比 ， 保 证 所 选 方法 的 高 度 优良 
性 。 实 验 结果 证 明 ， 该 模型 显著 提高 了 对 含有 多 种 类 型 的 非 
法 账户 预测 的 正确 率 。 

1 ”CatBoost 算法 

CatBoost 算法 作为 梯度 提升 树 中 最 新 的 研究 算法 ， 并 未 
应 用 到 对 区 块 链 交 易 平 台 上 非法 账户 的 预测 ， 其 具有 能 够 很 
好 地 处 理 类 别 特征 问题 并 且 有 效 地 减少 过 拟 合 问题 的 特点 ， 
根据 式 (1) 将 分 类 特征 值 转换 为 数值 结果 。 
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其 中 : P 是 添加 的 先 验 项 ，a 是 大 于 0 的 权重 系数 ，j 是 代表 
类 别 特征 值 的 系数 ，k 是 训练 样本 的 系数 ，i 是 第 i 个 为 类 别 


特征 ， Do opal 是 类 别 特征 值 中 等 于 标签 值 的 次 数 ， 


全 (xj, -mw] 是 总 体 类 别 特 征 值 个 数 。 

而 CatBoost 算法 作为 梯度 提升 树 中 的 一 种 , 采用 对 称 树 
作为 基 学 习 器 ， 通 过 一 组 分 类 器 的 品行 闪 代 ， 得 出 一 个 强 学 
习 器 。CatBoost 的 第 k 次 友 代 目标 就 是 求 六 ， 即 : 


,1 a 
hi =arg min -fi ye) -he)] Q) 


Lly,F, a a 口 
其 中 : 7Ce7)= Ye 为 梯度 估计 ,其 中 ARP] 是 损失 
三 


函数 ，fiiws 已 完成 的 k 一 1 步 迭 代 形 成 的 当前 的 学 习 器 。 为 
了 得 到 梯度 的 无 偏 估 计 ，CatBoost 结合 本 文 数据 集 ， 具 体 建 
模 过 程 如 下 : 
a) 对 于 非法 账户 数据 集 X 中 的 每 一 个 样本 ，CatBoost 
会 利用 之 外 的 全 部 训练 样本 并 得 到 模型 Ml 
b) 采 用 排序 提升 利用 M; 计算 的 梯度 估计 ， 即 计算 
f(x,y) 的 值 。 
c) 利 用 新 模型 对 样本 重新 评估 并 形成 一 个 基 学 习 器 。 
dj) 进一步 对 基 学 习 器 进行 处 理 ， 最 终 形成 强 学 习 器 。 
以 上 过 程 在 不 断 的 令 非法 账户 数据 集中 的 Ly,fiw] 值 变 小 ， 
即 减 小 模型 在 训练 集中 的 预测 误差 ， 最 终 形成 CatBoost 模型 。 


2 ”非法 账户 检测 


2.1 数据 预 处 理 
2.1.1 交易 特征 

该 数据 集 主要 来 源 于 两 部 分 ， 根 据 以 太 坊 平台 公布 的 被 
标记 的 非法 账户 数据 集 以 及 从 平台 上 把 取 下 来 的 正常 账户 数 
据 集 。 以 太 坊 社区 所 提供 的 非法 账户 数据 集 的 类 型 主要 包括 
B3， 试 图 模仿 其 他 合同 提供 代 币 的 地 址 、 诈 骗 彩 票 、 假 的 初 
始 人 硬币 、 模 仿 其 他 交易 用 户 、 智 能 庞 氏 合约 骗局 和 钓鱼 节点 。 
选取 数据 集中 非法 账户 均 包 含 上 述 多 种 类 型 ， 所 建 模型 针对 
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其 包含 的 多 种 类 型 非法 账户 进行 结果 预测 。 

在 对 正常 账户 选取 时 ， 从 以 太 坊 第 1209500 块 到 
12010000 块 之 间 随 机 选择 了 4024 个 正常 账户 ， 非 法 账户 则 
是 通过 以 太 坊 公开 的 被 标记 数据 集中 选取 了 4300 个 账户 。 
通过 对 比 收集 到 的 正常 账户 与 非法 账户 的 地 址 ， 在 入 选 后 ， 
确保 两 类 账户 地 址 不 存在 重复 ， 因 此 总 计 得 到 了 4024 个 正 
常 账户 与 4300 个 非法 账户 。 本 文通 过 以 太 坊 提供 的 API 进 
行 数据 爬 取 , 先是 将 合计 数据 传递 到 Ethereum 的 API 上 , 以 
获得 账户 所 从 事 的 相关 交易 数据 。 本 文 观 察 Steven Farrugia 
等 人 531 筛选 出 的 43 个 特征 属性 后 ， 进 行 创 新 构造 ， 将 
“min val sent” 与 “max val sent” 两 个 交易 特征 属性 进行 
整合 创建 新 的 属性 特征 ， 即 “Sent Diff betweent_ 
max_and min” 再 利用 这 44 个 交易 特征 属性 进行 模型 构造 ， 
如 图 1 所 示 。 


序号 提取 的 属性 特征 
1 Ag mm between sert nx 
Avg mm _between recetved tnx 
Tme DE between first and bst (Mn 
Sent tm 
Recewed Tm 
Nomber of Created Cantracts 
Unique_ Recened From Addresses 
Unique Sent To Midresses 
min Vabe receved 
max valte receved 
avg val receved 
mm val et 
max val sert 
Sent DiE betweent max and mn 
ava val sent 
mn Valpe sent 血 contact 
max val sent to_contract 
avg vake sent to cantract 
totl transactions_ 
toll Ether sent 
total ether recewed 
total ether sert_ contracts 
total efher balance 
Total ERC20 tms 
ERCY btal Ether recered 
ERC20 total ether sent 
ERC20 tobl Ether sent cantract 
ERCY unq srt add 
ERC20 uniq rec adir 
RO wniq rec_contract adtr 
ERO0 avg tme between sent tmx 
ERO0 avg tme between rec tnx 
六 ERC20 ave time _ between_contract tm 
习 ERC20 mm val ree 
瑟 ERC20 max val rec 
% ERC0 avg val ree 
3 ERC20 min val sent 
如 ERCY max val sent 
3 了 RC20 avg val snt 
名 RO mn val emt contract 
RO max val sent contract 
ERC20 avg val sent contract 
ERO0 vn sent token mne 
ERCY mi rec token mme 


图 1 完整 的 特征 属性 集 描述 


Complete feature attribute set description 


交易 特征 指 述 
会 涝 交 易 之 间 的 平均 ~ 


Fig. 1 

2.1.2 数据 清洗 
本 文 所 选取 数据 集 均 来 自 于 以 太 坊 提供 的 实时 交易 数据 ， 
寻 此 复杂 的 数据 交易 需要 检查 缺失 值 , 无效 值 , 空 值 的 存在 ， 
以 确保 模型 构建 后 的 准确 性 和 适用 性 。 选择 利用 Python 对 数 
据 集 进行 预 处 理 ， 得 知 数据 集中 部 分 属性 特征 的 确 存 在 缺失 
值 和 无 效 值 ， 如 表 1 所 示 。 
表 1 存在 缺失 值 与 无 效 值 的 属性 列 


esa 


Tab.1 Check the data 
名 称 是 否 存 在 

ERC20 avg time between sent tnx TURE 
ERC20 avg time between rec tnx TURE 
ERC20_ avg time between contract tnx TURE 
ERC20_min val sent contract TURE 
ERC20 max val sent contract TURE 
ERC20 avg val sent contract TURE 
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进一步 强调 了 实验 选用 机 器 学 习 方 法 的 重要 性 。 


根据 上 述 结果 ， 对 存在 问题 的 属性 特征 进行 处 理 ， 其 原 
理 是 利用 属性 特征 中 的 整体 数据 进行 平均 数 的 计算 ， 得 出 的 
数值 再 填补 到 属性 特征 的 缺失 值 处 或 无 效 值 处 。 

为 确保 数据 清洗 工作 的 完善 性 ， 通 过 观察 数据 集 具 体 分 
布 情况 , 基于 对 噪声 数据 的 特征 分 布 有 以 下 特点 : a) 超 过 90% 
的 数据 显示 为 “0” 值 ; b) 在 整个 账户 集中 测量 值 与 真实 值 存 
在 较 大 误差 或 无 法 得 出 其 测量 值 ，c) 其 特征 属性 会 影响 模型 
预测 的 性 能 负担 ; 如 “total ether sent contracts”， 
“ERC20_avg_val_sent_contract” 等 多 个 特征 属性 。 考虑 其 或 为 
模型 性 能 负担 形 数据 ， 因 此 将 此 类 特征 属性 进行 删除 ， 不 引 
入 最 终 的 模型 构建 。 
2.2 数据 降 维 及 聚 类 分 析 

实验 数据 集 特征 空间 呈现 多 维度 化 , 利用 T-SNE 算法 在 
对 其 进行 非 线性 转换 ， 使 其 在 2D 平面 中 视觉 出 数据 集 账户 
标签 类 型 。TSNE 算法 是 一 种 通过 二 维 或 三 维 地 图 给 每 个 数 
据点 一 个 位 置 实现 高 维 数据 可 视 化 的 统计 方法 ， 其 算法 主要 
有 两 大 优势 : a) 对 于 不 相似 的 点 ， 用 一 个 较 小 距离 会 产生 较 
大 的 梯度 来 让 这 些 点 排斥 开 来 ，b) 排 除 不 会 过 于 大 ， 即 避免 
不 相似 的 点 距离 太 远 。 具 体 算法 逻辑 如 下 : 
算法 1 T-SNE 算法 运行 伪 代 码 


输入 : 实验 数据 集 ， 以 及 引用 Python 携带 的 三 方 库 。 

输出 : T-SNE 可 视 化 后 的 图 形 

a) 导 入 实验 数据 集 。 

b) 去 除 实验 数据 集 的 无 关 列 ， 即 “address”, 并 将 ”FLAG“ 标 签 数据 列 
作为 单独 的 y 列 。 

c) 利 用 Standardscaler 函数 标准 化 目标 特征 ， 并 设置 Tsne 算法 中 


的 n_components 参数 为 2， 以 满足 二 维 条 件 。 
d) 最 后 scatterplot 函数 可 视 化 实验 效果 模型 。 

因此 图 2 中 表现 出 ，a) 标 签 和 非 标签 数据 有 几 个 可 区 分 

的 集群 ， 且 这 些 集 群 分 散在 四 周 ， 旦 点 状 式 分 布 排列 ; b) 标 

签 和 非 标 签 数 据 类 型 的 集群 任 然 存在 大 部 分 的 重 钱 。c) 在 右 
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图 3 肘 部 法 则 效果 图 
Fig.3 Elbow rule renderings 


T 
- 西 0 三 0 五 团 看 


100 


图 4 K-Means 算法 聚 类 后 通过 TSNE 算法 降 维 后 可 视 化 图 形 


Fig. 4 The visualization graph given by the dimensionality reduction 


3 


ofthe TSNE algorithm after clustering by the kmeans algorithm 


实验 结果 分 析 


3.1 参数 评估 


首 


下 和 角 明 显存 在 小 艇 “非法 ”账户 标签 集群 。 以 上 结果 强调 J 
使 用 机 器 学 习 的 重要 性 ， 以 区 分 两 个 二 进 制 类 型 。 


FLAG 
© illegal 
bd normal 


Dim2 


T 
一 100 一 75 -50 —25 0 25 50 75 


图 2 TSNE 算法 显示 的 标签 和 非 标签 数据 2D 分 布 图 
Fig.2 2D distribution map oflabeled and unlabeled 
data displayed by TSNE algorithm 
通过 引用 K-Means 聚 类 算法 对 数据 的 类 别 进行 分 类 归 整 ， 
其 实际 意义 是 将 数据 集中 的 属性 特征 类 别 进 一 步 聚 类 分 析 ， 
观察 其 不 同 账户 类 别 中 是 否 处 于 同一 实际 效果 ， 为 确定 K- 
Means 算法 中 K 值 的 最 优质 心 ， 实 验 选 用 肘 部 法 则 (Elbow 
Rule) 以 确定 最 优 K 的 取 值 ,根据 肘 部 法 则 效果 图 可 以 清晰 地 
观察 到 本 文 使 用 的 实验 数据 集 最 优质 心 K 为 2, 即 当 K=2 时， 
下 降幅 度 曲 线 明 显 趋 近 于 缓慢 ， 具 体 效果 如 图 3 所 示 。 
图 4 的 聚 类 效果 可 知 ， 实 验 选 取 不 同 账户 类 别 数 据 生 
除 小 部 分 显示 为 不 同类 别 特征 ， 大 部 分 均 为 相同 类 别 特征 ， 


7 


数量 (n_estimators) 和 最 大 深度 (max_depth) 三 个 和 


搜 
的 


2 


行 模型 建立 时 ， 本 文 考虑 了 学 习 率 (learning_ rate)、 学 习 器 上 


通过 创建 新 的 交易 特征 属性 以 及 K-Means 聚 类 算法 的 初 
步 聚 类 整合 ,之 后 建 模 实 验 流程 均 在 python3.9 环境 中 实现 ， 
先 读 取 实 验 中 的 数据 集 ， 在 使 用 Catboost 算法 对 数据 集 进 


要 的 因素 。 


于 模型 在 训练 时 ， 无 法 确定 参数 最 优 情况 ， 


索 优 化 法 对 Catboost 算法 进行 参数 的 调整 。 除 上 述 所 选取 


利用 网 格 


三 个 重要 参数 因素 外 ，CatBoost 算法 的 参数 还 包括 最 大 树 


数 (iterations)， 数 值 型 参数 的 分 割 数 (border count)， 


鸡 


保 


叶 的 测试 


法 (leaf estimation _ method)，12 的 正则 参数 (12_leaf reg) 等 。 


数 的 具体 释义 如 表 2 所 示 。 进 行 调 参 时 ， 先 保证 其 他 参数 
持 不 变 , 使 用 网 格 搜索 法 先 对 border_count 参数 进行 调 优 ， 
而 对 iterations 以 及 learning rate 做 进一步 的 调 优 ， 紧 接着 


有 
的 


了 确定 树 的 深度 (depth)， 最 终 确定 模型 参数 结构 。 
参数 进行 调 参 后 ， 其 优化 的 具体 结果 如 表 3 所 示 


表 2 参数 的 具体 释义 
Tab.2 The specific definition of the parameter 


对 所 选取 


o 


参数 类 型 描述 
iterations 整数 最 大 树 数 
border_count 整数 数值 型 参数 的 分 割 数 
12 leaf reg 整数 12 的 正则 参数 
depth 整数 树 的 深度 
learning rate 浮 点 型 学 习 率 


根据 上 述 调 优 结果 ， 利 用 Python 环境 对 CatBoost 算法 


在 不 同 交 叉 倍数 验证 下 得 出 结果 ， 如 表 4 所 示 ， 实 验 结果 取 


同 


所 


强 
中 
二 


层 实 验 的 平均 数 作为 最 终 数 值 。 


根据 表 4 所 示 ， 在 3，4，5，11，12 倍 交叉 验证 下 最 终 


得 的 结果 远 不 如 10 倍 交 叉 验 证 ，10 倍 交 叉 验 说 


了 模型 的 构建 ， 以 及 对 以 太 坊 中 非法 账户 预测 的 精度 作出 
进一步 的 提升 。 


E 有 效 的 加 


录用 定稿 周 健 等 : 基于 


表 3 CatBoost 参数 最 优 情 况 


Tab.3 Optimal case of catboost parameters 


交易 特征 对 以 太 网 多 类 型 非法 账户 的 分 析 与 预测 


结果 的 可 靠 性 ， 本 文 在 随机 抽取 样本 的 范 
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能 力 。 为 验证 这 一 
围 上 进行 扩大 ， 如 图 7 所 示 。 


CatBoost 参数 取 值 
loss_funcation logloss 0.6 
learning_rate 0.1 
iterations 800 a 
eval_metric AUC,Accuracy 3 
border_count 128 号 
12_leaf reg 3 
rsm 1 train 
depth 5 ey 
n_estimators 300 0 es 26 
leaf_estimation method Gradient lterations 
one_hot max_size 2 到 6 ”CatBoost 算法 在 10 倍 交叉 验证 下 的 损失 函数 
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表 4 3，4，5，10，11 和 12 倍 交叉 验证 结果 
Tab.4 3,4,5,10,11 and 12-fold cross-validation results 


Fig.6 The loss function of the catboost algorithm under 


10 cross-validation 


交叉 验证 倍数 树 深 学 习 器 数量 Accuracy AUC 表 5 随机 抽取 20 个 样本 模型 预测 概率 
3 7 300 0.9394 0.9824 Tab. 3 Randomly draw 20 samples and predict the 
4 8 250 0.9406 0.9834 probability of the model 
5 7 300 0.9410 0.9836 抽取 样本 所 在 位 所 取样 本 标签 模型 预测 所 得 标签 
10 5 300 0.9431 0.9851 3064 0 0 
11 6 300 0.9410 0.9684 1347 1 0 
12 5 300 0.9401 0.9841 3072 1 1 
3.2 ”模型 评估 效果 435 0 0 
利用 网 格 搜 索 优化 法 ， 本 文 已 经 确定 了 三 个 对 构建 模型 298 0 0 
起 到 至 关 重 要 的 三 个 元 素 : 1) 学 习 率 ; 2) 树 深 ; 3) 学 习 器 的 数 292 | 1 
量 。 而 通过 上 述 实验 分 析 , 基于 AUC 数值 以 及 对 数 损失 函数 1729 1 1 
(Logloss) 对 本 实验 再 次 细 化 ， 根 据 树 深 以 及 学 习 器 数量 的 不 4289 1 1 
同 分别 在 10 倍 交叉 验证 下 进行 模型 预测 能 力 评 估 ， 其 结果 1045 0 0 
以 折线 图 形式 表现 走向 趋势 。 如 图 5 所 示 。 2427 0 0 
100 150 200 250 300 2612 1 1 
: > 3973 1 1 
0.982 
0. 980 | 995 0 0 
0.978 3919 1 1 
| 211 0 0 
0. 974 
3 0.972 379 0 0 
0.9704 3973 0 0 
Rae 2729 0 0 
0.966]] 
0. 964 | 一重 一 dept h=7 1018 1 1 
0.962 + T T T ee 534 1 1 
100 150 200 250 300 
n_estimators 总 预测 概率 95% 
图 5 在 10 倍 交叉 验证 下 对 nm 个 估计 量 和 最 大 深度 参数 的 验证 一 一 预测 率 (Accuracy) 
Fig.5 Validation ofn estimators and maximum depth parameters 
under 10-fold cross-validation Ee 
通过 上 述 图 形 可 知 ， 树 的 深度 为 2 时 ， 其 AUC 数值 在 
学 习 器 数量 增高 时 明显 低 于 其 他 深度 ， 但 为 一 个 典型 的 增长 
趋势 , 而 随 着 树 深 值 的 增 大 , AUC 的 评估 度量 也 在 逐步 升 高 ， 三 093 
模型 参数 调整 的 最 优 结果 也 可 从 图 中 显示 出 ， 当 树 深 在 内 
5(depth=5), 学 习 器 数量 抵达 300(n_estimators=300) 时 ,模型 此 演 0.92 
时 的 AUC 数值 略 高 于 其 他 参数 结果 。 
而 基于 参数 Logloss( 对 数 损 失 ) 由 CatBoost 算法 分 别 在 0.91 
训练 集 和 测试 集中 执行 迭代 次 数 。 从 图 6 可 观察 到 , CatBoost 二 
算法 在 100 次 迭代 之 后 两 类 数据 集 同时 开始 走向 收敛 ， 可 以 Seed 
证 明 实 验 构建 的 模型 ， 其 预测 能 力 具 有 较 好 的 适应 性 。 图 7 随机 取样 范围 的 预测 率 变 化 图 


Fig.7 Prediction rate change graph of the random sampling range 
上 述 图 反映 出 模型 预测 概率 虽然 开始 时 呈现 大 幅度 下 降 ， 
但 随 着 随机 样本 的 扩大 ， 模 型 的 预测 能 力 逐 渐 趋 于 平稳 ， 根 
据 模型 最 终 对 整体 数据 集 的 预测 ， 预 测 准确 度 达 到 0.9407， 


为 评估 模型 的 预测 能 力 , 从 测试 集中 随机 抽取 20 个 样本 ， 
以 观察 模型 的 预测 能 否 达到 实际 契合 效果 ， 如 表 5 所 示 。 

表 5 反映 出 , 模型 在 随机 抽取 20 个 样本 进行 预测 , 所 产 
生 的 结果 与 原 结果 只 有 一 个 不 同 ， 说 明 模型 具有 较 强 的 预测 


让 


202206.00072v1 


chinaXiv 


录用 定稿 


有 较 强 的 适应 性 和 准确 性 。 


周 和 健 ， 


: 基于 交易 特征 对 以 太 网 多 类 型 非法 账户 的 分 析 与 预测 


说 明 本 文 的 模型 结构 对 以 太 坊 中 非法 账户 的 预测 具 


3.3 ”特征 重要 性 
在 构造 对 以 太 坊 


所 选取 数据 集中 的 属性 特征 进行 重要 性 的 排 
有 较 强 影响 性 的 十 大 重要 特 和 


对 模型 构建 


Time_Diff_between_ffrst_and_last_(Mins) 


feature 


total_transactions [including_tnx_to_create_contract) 


非法 账户 预测 的 模型 时 ， 本 文 也 针对 


CatBoost features importance 


total_ether_balance 
Avg_min_between_sent tnx 


Unique_Received_From_Addresses 


avg_val_sent 
Unique_Sent_To_Addresses 


min_value_recelved 


max_val_sent 


min_val_sent 


o 


图 8 预测 变量 重要 性 


10 
importance 


Fig.8 Predictor importance 


S 


序 ， 因 此 列举 J 
[， 如 图 8 所 示 。 


通过 上 述 图 形 结果 可 知 , total_ether balance,sent tnx 以 及 


between sent tnx ， 
Addresses, avg val sent, max val sent 和 


预测 变量 则 为 一 般 


Unique Received from Address” 这 个 属性 
量 ， 而 Time Diff between first and last (Mi 


特征 为 显著 重要 变 


min_value received ， 


ns), Avg min 
Unique Sent To_ 
上 min_val_sent 这 七 个 


要 变量 ， 而 剩余 的 33 个 预测 变量 其 重要 


total_ether_ balance 


Unique_Received_From_Addresses 


Time_Diff_between _first_and_last_(Mins) 


max_val_sent 


avg_val_sent 


Avg_min_between _sent_tnx 


min_val_sent 


Avg_min_between_received tnx 


min_value_received 
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图 10 SHAP value 可 视 化 图 


P value (impact on model output) 


Fig. 10 SHAP value visualization graph 


重要 性 ) 的 结果 ,可 视 化 出 排名 前 十 的 特征 属性 ， 
表 特 征 取 值 的 大 小 , 宽度 代表 特征 分 布 。 而 若 SHAP Value 小 


间 


响 。 


3.4 


性 所 占 比值 都 接近 于 0 甚至 等 于 0, 具体 的 完整 预测 变量 
性 如 图 9 所 示 。 


重要 


序号 属性 名 称 重要 性 排名 影响 程度 
和 Avg min_ between_ sent_tnx 6 4.36% 
公 Avg_min_between_received_tnx 9 2.90% 
3 Time_DIiff_between_ first_and_last_(Mins) 4 6.32% 
4 Sent_tnx 2 8.14% 
人 Received_Tnx 28 0.91% 
6 Number_of_Created_Contracts 24 1.10% 
过 Unique_Received_From Addresses 3 7.79% 
8 Unique_Sent_To_Addresses 3 5.46% 
9 min_value_received 8 4.23% 
10 max_value_received 23 1.12% 
半 业 avg_val received 13 2.34% 
12 min_val_sent sb 2.50% 
13 max_val_ sent 10 2.75% 
14 Sent_Diff betweent_max_and_min 14 2.16% 
15 avg_val sent 他 4.25% 
16 min_value_sent_to_contract 44 0.00% 
17 max_val sent_to_contract 43 0.00% 
18 avg_value_sent_to_contract 42 0.00% 
19 total transactions_ 17 1.73% 
20 total_Ether_sent 21 1.29% 
21 total_ether_received 1 2.36% 
检查 total_ether_sent_contracts 34 0.01% 
23 total_ether_balance 1 23.47% 
24 Total_ ERC20_tnxs 16 1.73% 
25 ERC?20_total_Ether_received 18 1.63% 
26 ERC20_total_ether_sent 27 1.02% 
27 ERC?20_total_Ether_sent_contract 35 0.00% 
28 ERC20_uniq_sent_addr 15 1.92% 
29 ERC20_uniq_rec_addr 20 1.37% 
30 ERC20_uniq_rec_contract_ addr 32 0.40% 
人 ERC20_avg time_ between_ sent_tnx 36 0.00% 
32 ERC20_avg time_ between rec_tnx 37 0.00% 
33 ERC20_avg time_between_contract_tnx 40 0.00% 
34 ERC20_min_val rec 26 1.08% 
5 ERC20_max_val rec 19 1.53% 
36 ERC20_avg_val_rec 25 1.09% 
ar ERC20_min_val sent 30 0.47% 
38 ERC20_max_val sent 31 0.44% 
39 ERC?20_avg val sent 29 0.68% 
40 ERC20_min_val_sent_contract 38 0.00% 
41 ERC20_max_ val sent_contract 39 0.00% 
A ERC20_avg_val sent_contract 1 0.00% 
43 ERC20_uniq_sent_token_name 22 1.13% 
44 ERC20_uniq_rec_token_name 33 0.32% 
图 9 完整 预测 变量 重要 性 排名 
Fig.9 Full predictor importance ranking 
因此 可 知 在 CatBoost 算法 对 数据 集 建 模 过 程 中 , 不 同 的 
属性 特征 对 其 构造 模型 的 影响 是 不 同 的 ， 在 对 特征 属性 收集 
划分 中 需要 整理 更 多 潜在 可 能 影响 到 模型 建造 的 特征 属性 ， 
才能 使 模型 的 适用 性 和 准确 性 得 到 提升 。 
实验 为 进一步 探究 特征 属性 对 样本 的 影响 状况 ， 引 入 
SHAP Valve 变量 , 表现 出 其 影响 的 正 负 性 , 具体 结果 如 图 10 


所 示 。 


于 零 ， 则 对 标签 


特征 产生 负 影 响 ; 
图 中 ,“Unique Received from Address” 特 4 
影响 因子 显著 高 于 负 影 响 因 子 ， 然 而 “sent tnx ” 
“Time Diff between first_ and last (Mins)” 这 


High 


Feature value 


通过 上 述 图 形 的 表现 , 结合 Feauture Important( 属 性 特征 


否则 对 标签 特 得 


的 负 影 响 因 子 高 了 
可 直观 的 判断 出 不 同属 性 特 


模型 对 比 


正 影 响 因 子 。 通 过 引入 SHAP Value 
征 对 模型 构建 影响 的 正 


通过 交易 特征 的 创建 以 及 


网 人 特 征 ER 性 


负 性 。 


~ 


其 他 算法 与 CatBoost 的 结合 


其 中 颜色 代 


E 产 生 正 影 
E 属 性 的 正 


再 与 其 他 算法 模型 和 其 本 身 原 有 模型 进行 比较 ， 分 别 使 其 在 
10 倍 交叉 验证 下 对 实验 数据 集 进 行 预测 ， 以 此 验证 本 文 所 选 
用 方法 的 效果 较 好 。 有 具体 情况 如 表 6 所 示 。 
表 6 模型 对 比 实验 结果 
Tab.6 Model comparison experiment results 
算法 模型 精确 度 (Accuracy) AUC 数值 
决策 树 0.906 0.945 
SVM( 线 性 ) 0.5196 0.764 
神经 网 络 0.7342 0.836 
LightGBM 0.7853 0.9695 
CAT 树 0.8487 0.888 
原 CatBoost 0.9429 0.9846 
改进 后 CatBoost 0.9431 0.9851 


易 特征 的 创建 
聚 类 整合 ， 再 


根据 表格 所 


利用 开 -Means 址 


[ 示 ， 本 文选 用 的 改进 后 CatBoost 算法 通过 交 


案 类 算法 先 对 实验 数据 集 进行 


运用 CatBoost 算法 进行 模型 的 搭建 ， 


其 结果 无 


论 在 精确 度 或 AUC 数值 上 均 高 于 其 他 算法 ， 即 本 文 所 构建 


的 模型 


4 结构 对 以 太 坊 中 非法 账户 的 预 半 


| 拥有 较 好 的 准 


E 确 性 以 


及 适应 性 。 而 列举 的 其 他 算法 中 ， 与 CatBoost 算法 属于 同一 


梯度 提 姑 


| 树 的 LightGBM 算法 ， 其 虽 


好 表现 , 但 其 精确 度 却 明显 小 于 
CatBoost 算法 比较 ,其 精确 度 与 


对 此 综 上 所 述 ，CatBoost 算法 i 


有 然 在 AUC 数值 上 有 有 


F CatBoost 算法 。 而 


AUC 数值 均 有 略微 的 提升 。 


[与 单纯 


通过 对 比 其 他 算法 模型 ， 进 


~ 


4 


结束 语 


基于 对 以 太 坊 中 公开 的 账户 数 扩 


利 


] Python 开 


行 模型 
能 力 。 构 建 模 型 


准 ，i 


构建 ， 所 构建 模型 


步 证 明 其 在 对 本 文 收集 到 的 以 太 坊 账户 数据 集 关 于 
预测 上 有 优异 的 预测 能 
有 说 服 力 。 


ul 


非法 账户 


力 ， 这 也 使 本 文 所 构建 的 算法 模型 更 


居 集 的 搜集 与 整理 ， 本 文 


发 环境 使 用 CatBoost 算法 对 整理 的 数据 集 进 


还 展现 了 其 


本 文 的 基础 


预测 未 来 以 太 坊 中 了 
不仅 在 精确 度 以 及 AUC 数值 方面 
其 预测 变量 重要 性 的 顺序 以 及 具体 对 模型 有 正 
负 影响 力 的 能 力 。 本 文 所 提出 的 算法 模型 具有 较 强 
方法 也 建立 在 基础 层面 ， 对 其 他 应 用 领域 均 有 预 讽 
上 可 以 通过 进一步 的 优 


FE 法 账户 的 


1 有 较 高 水 


的 适应 性 


作用， 在 
化 和 改进 以 探究 区 块 链 交 


录用 定稿 周 健 ， 


易 平 台中 更 深层 次 的 非法 行为 。 根 据 以 太 坊 中 海量 账户 之 间 
的 交易 历史 来 检测 是 否 存 在 非法 账户 ， 从 而 为 这 一 研究 领域 
作出 了 贡献 ， 所 提出 的 算法 模型 也 可 以 被 相关 的 经 济 机构 和 


关于 未 来 的 工作 ， 团 队 会 有 的 架构 模型 在 其 他 应 用 领域 
行 预测 ， 以 保证 模型 的 适用 性 和 可 实践 性 ， 对 于 不 仅 存在 
在 以 太 坊 中 的 非法 账户 预测 ， 而 且 其 他 3 
易 平台 非法 预测 ， 团 队 都 将 进行 分 析 与 探究 。 在 关于 属性 特 
征 上 ， 会 进一步 尝试 提取 区 块 链 交易 中 的 新 型 特征 ， 以 完善 
模型 在 预测 非法 账户 上 的 能 力 。 本 文 使 用 CatBoost 算法 对 模 
型 进行 搭建 ， 其 本 身 也 存在 或 多 或 少 的 缺陷 ， 会 通过 优化 算 
法 对 模型 预测 能 力 的 准确 度 上 进行 提升 使 模型 更 具 效率 和 
说 服 力 。 
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